查看原文
其他

算力!AGI的九层之台,算力为基——谈谈大模型的算力问题

走向未来 走向未来 2023-08-31
‍‍今年春节刚过,二、三月份的时候,那时候国内大模型还没有像现在这么“火🔥”,当时跟做 AI 芯片的朋友聊的时候我就说,接下来几年AGI【或者大模型,但我更愿意和硅谷保持同步,使用AGI或生成式AI,大模型只是其中一部分】对算力的需求无止境。我用饕餮来形容AGI,而算力就是饕餮的食物【其实还有数据,不过跟搞芯片的朋友聊的是算力】。据传饕餮贪食无餍,会吃掉一切食物,甚至自己的身体,所以《吕氏春秋》有言“周鼎著饕餮, 有首无身, 食人未咽, 害及其身, 以言报更也。”同样的思路,年初时,我曾经提议公司尽可能多的购买A100的卡,并联合某地方政府构建算力中心。因为有了算力,才有资格进入AGI的牌桌。当然,有了算力,即使没有搞成大模型或 AGI,也能靠卖算力把公司搞的好好的!
关于这个问题,必须从 AGI 或生成式 AI 的视角才能看出来。而仅仅从大模型或者 AIGC( Artificial Intelligence Generated content,人工智能生产的内容)的视角,也许看不到这么远!顺带一提,这里的生成式 AI(Generative AI)中的“生成Generative”和 AIGC 中的“生成Generated”,其概念的内涵和外延都差别巨大。生成式AI 中的“生成式”,是与机器学习的另一个概念“判别式”对应的【详情后面专文来说明吧,本文的内容还是算力】。再多说一句 AGI,虽然已经有超过90个机构发布了国产大模型【全部列表见:https://github.com/wgwang/LLMs-In-China】,但这里面真正在做 AGI的,甚至想到 AGI的,不能说没有,至少也是非常、非常、非常【重要的说三遍】少!
本号持续关注通用人工智能,会持续跟踪人工智能【大模型、AGI、AIGC、生成式AI、文生文、文生图、图像理解、强化学习、知识图谱、深度学习】有关的数据、算法、模型和创投,欢迎关注本公众号【走向未来】获得一手数据和知识。
回到算力上,写这篇文章的起因是前不久在集度公司的演讲《生成式AI技术的应用和机遇》。当时有个听众提了个关于大模型与自动驾驶的问题。我个人对自动驾驶关注了很长时间了,在 ChatGPT 出来之前,我一直认为自动驾驶单纯靠单机【车载设备】的智能化是无法实现的,必须要车与车之间进行互联与通信,扩大单车的感知范围。比如车与车之间直接通过通信告知,依靠车与车之间的通信还能够感知周边车的状况(比如车速、距离等),而不需要靠智能体来进行识别了。进一步的,通过车间互联通信,还能够依靠其他车来实现更长距离更大范围的感知等。 
但是,当前AGI的发展,改变了我的想法,我认为技术上,自动驾驶技术已经具备了,虽然实现条件还不满足。不满足的最关键条件是单车的算力不足。也就是说,当前的 AGI(神经网络大模型+强化学习+知识图谱)在足够算力的支撑下,是完全能够实现自动驾驶的。但这个算力,估摸着还需要在现有单卡(H100)算力的基础上再提升一千到一百万(1K~1M)倍【即单车算力能够达到10000卡 H100的水平】。不知道还需要多少年能够实现!
Nvidia DGX GH200超级计算集群,提供了约2000张A100的算力  
在自动驾驶之外,再回头看看“大模型”。以公开的 LLaMA-65B 的模型为例,该模型是65B 参数,在1.4T 词元的数据集,使用2048个Nvidia A100的GPU集群上训练了21天,消耗1,022,362个 A100(80G)的GPU小时,大概成本为500~1000万美元。GPT-4的训练算力成本则超过1亿美元,小道消息是使用了超过20000个Nvidia A100(80G) GPU的超级计算集群来训练的。即使更小的模型,比如MPT-7B ,使用了1T 词元的数据训练出来的,训练该模型的算力成本也要20万美元。从这些数据上,即可以看出“没有算力,是没有资格进入AGI的牌桌”的观点。当然,也可以说,Money is all you need!
最后,讲1.5个小道消息,和三个故事。从这些小道消息和故事中也同样可以看出,算力对于这一波人工智能的发展的重要性!而这也是为什么,所有 AI 公司都在为 Nvidia 打工,老黄才是这一波AI发展的大赢家!
Nvidia 股价飙升         
小道消息是,光年之外没有把钱花在刀刃上,也就是没有购买足够的算力,从而把创始人搞郁闷了(有传闻是抑郁了)!要我来操刀光年之外,成立公司的同时就要买一堆A100(或 A800)的卡,然后招人来搞大模型,那可能就另外一个故事了【听起来像是百川智能^_^,算0.5个小道消息吧】。       
故事1:OpenAI 算力紧缺
在一个采访中,Sam Altman明确说了 OpenAI 受到GPU的严重限制。该文已经因OpenAI 的要求被删除了,不过网络上依然记忆。该报道提到:
整个讨论中出现的一个共同主题是,目前 OpenAI 的 GPU 极其有限,这推迟了他们的许多短期计划。客户抱怨最多的是关于 API 的可靠性和速度。Sam 承认他们的担忧并解释说,大部分问题是 GPU 短缺造成的。这包括更长的 32k上下文尚无法推广给更多人,推广到100K~1M 的上下文也还需要更大的研究突破;微调API目前也遇到 GPU 可用性的瓶颈,类似适配器或LoRa等高效的微调方法有待研究;客户转悠的模型也受到 GPU 可用性的限制而无法很好地提供服务,当前需要使用这个服务,必须预先支付 10 万美元。 
         
故事2:Sam Altman和Open AI投资了至少9个量子计算领域的项目
Sam Altman和 OpenAI 在过去几年投资了许多量子计算公司,包括Rigetti Computing、Atom Computing、Xanadu、PsiQuantum、Quantum Motion、Quantinuum、Zapata Computing、QC Ware、IonQ等等。现有的算力依赖于 Nvidia的 GPU,但现有芯片制程可以预见马上就要达到1nm 后而无法在技术上更近一步。未来的算力解决还是依赖与量子计算的成熟。而一旦量子计算突破了,算力不再是问题了,那么 AGI必然会加速到来。【这个投资的眼光是要放的很长远的了】

故事3:Inflection AI融资13亿美元并构建世界上最大的AI 超算
Inflection AI今天【2023 年6月29日】宣布该公司13亿美元,由Microsoft, Reid Hoffman, Bill Gates, Eric Schmidt和NVIDIA投资。同时,Inflection AI 也宣布与其合作伙伴 CoreWeave 和 NVIDIA 一起,构建世界上最大的人工智能集群,其中包含 22,000 个 NVIDIA H100 GPU。每个 H100的算力大约等价于10个 A100的算力(训练和推断的倍数不一样,H100对 Transformer 架构的训练和推断有专门的加速)。Inflection AI这个超算集群一旦构建完成,拥有了大约22万张 A100的算力,可以说超越了国内所有的大厂的算力!
 最后,本文是《迈向 HAGI 》的一部分,其他内容参阅:
国产大模型突破80个,Google开始为Gemini造势:百模大战V6
GPT-4模型架构:它比你想象的更简单
深度全解析开放开源大模型之BLOOM
如果觉得这个文章对你有用,请随手点赞、关注、转发、在看、打赏!
也欢迎关注本号:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存